حل برخط بازی های دیفرانسیلی افق نامحدود برای سیستم های دینامیک-نامعین زمان-پیوسته با استفاده از الگوریتم های یادگیری تقویتی

thesis
abstract

بازیهای دیفرانسیلی امروزه کاربردهای گسترده در زمینه های مختلف از جمله سیستمهای مخابرات بیسیم و شبکه، سیستمهای اقتصادی و راهبرد های دفاعی یافته اند. حل بازیهای دیفرانسیلی تکیه بر حل معادلات همیلتون-جاکوبی دارد. حل این معادلات در حالت غیرخطی بسیار مشکل بوده و ممکن است حتی در موارد ساده فاقد حل تحلیلی سرتاسری باشند. اکثر روش¬های ارائه شده برای حل این معادلات، روشهای تقریبی برون خطی هستند که در آنها دینامیک سیستم کاملا معین میباشد. در این رساله، سه الگوریتم برخط برای یافتن حل تقریبی بازیهای دیفرانسیلی دونفره مجموع-صفر و چندنفره مجموع-غیرصفر ارائه گردیده است: الگوریتم یادگیری تقویتی همزمان، الگوریتم برنامه ریزی پویای تطبیقی و الگوریتم یادگیری تقویتی انتگرال. مزیت عمده استفاده از یادگیری تقویتی این است که زمینه برای حضور کنترل تطبیقی فراهم میشود و بنابراین میتوان با ترکیب یادگیری تقویتی و شبکه های عصبی، الگوریتم های کنترل بهینه تطبیقی برای سیستم های با دینامیک نامعین ارائه کرد. در روشهای کنترل بهینه تطبیقی، شرط تحریک پایا چالشی است که این تکنیکها را در دست یافتن به تخمین مناسب پارامترهای سیستم محدود نموده است. تمامی روشهای پیشین کنترل بهینه تطبیقی برای حل بازیهای دیفرانسیلی مجموع-صفر و مجموع-غیرصفر نیاز به بررسی شرط تحریک پایا برای تضمین همگرایی الگوریتم به نقطه تعادل بهینه دارند. در این رساله، با استفاده از رویکرد جدید یادگیری همزمان، به شرط محدود کننده تحریک پایا غلبه گردیده و بجای آن شرایط کافی و آسان برای تضمین همگرائی پارامترها بدست آمده است. پایداری سیستم با استفاده از تکنیک لیاپانف تضمین شده و علاوه بر آن، همگرائی به نقطه تعادل نش بازی در همه حالتهای مذکور نشان داده شده است.

similar resources

کنترل بهینه توزیع شده بازی های گرافی دیفرانسیلی غیر خطی به صورت برخط با استفاده از یادگیری تقویتی

این مقاله به معرفی بازی های گرافی دیفرانسیلی برای سیستم های چند عاملی غیر خطی زمان پیوسته می پردازد و یک روش بهینه توزیع شده برخط برای حل آنها پیشنهاد می کند. در بازی های گرافی دیفرانسیلی، دینامیک خطا و اندیس عملکرد هر بازیکن تنها بستگی به اطلاعات همسایگان محلی آن عامل دارد. الگوریتم تکرار سیاست توزیع شده پیشنهاد شده، حل تقریبی معادلات همیلتون-جاکوبی کوپل شده همکارانه متعلق به عامل های غیر خطی...

full text

کنترل بهینه توزیع شده بازی های گرافی دیفرانسیلی غیر خطی به صورت برخط با استفاده از یادگیری تقویتی

این مقاله به معرفی بازی های گرافی دیفرانسیلی برای سیستم های چند عاملی غیر خطی زمان پیوسته می پردازد و یک روش بهینه توزیع شده برخط برای حل آنها پیشنهاد می کند. در بازی های گرافی دیفرانسیلی، دینامیک خطا و اندیس عملکرد هر بازیکن تنها بستگی به اطلاعات همسایگان محلی آن عامل دارد. الگوریتم تکرار سیاست توزیع شده پیشنهاد شده، حل تقریبی معادلات همیلتون-جاکوبی کوپل شده همکارانه متعلق به عامل های غیر خطی ...

full text

حل مسئله ردیابی بهینه سیستم های دینامیکی زمان-گسسته خطی با دینامیک نامعین به کمک یادگیری تقویتی

یادگیری تقویتی به طور گسترده و موفقیت آمیزی برای حل مسائل کنترل بهینه تنظیم سیستم های دارای دینامیک نا معین بکار گرفته شده است. با این حال، به دلیل اینکه در روش های موجود حل مسئله ردیابی بهینه، برای بدست آوردن قسمت پیشرو ورودی کنترلی دینامیک کامل سیستم نیاز هست، روش های یادگیری تقویتی به طور مستقیم قابل اعمال برای مسئله ردیابی بهینه سیستم های دارای دینامیک نامعین نمی باشند. در این پایان نامه رو...

توسعه ایده های یادگیری تقویتی گسسته در یادگیری تقویتی پیوسته برای سیستم های چند عامله

در جهان پیچیده امروز برای انجام کارهای متفاوت گاهی توانایی یک فرد کافی نیست و مشارکت و همکاری افراد نیاز است. در دنیای کامپیوتر نیز سیستم های چند عامله متشکل از تعدادی عامل است که با یکدیگر در یک محیط در تعاملند. این سیستم ها ویژگی های خاصی دارند، از جلمه خود مختاری، عدم دسترسی به اطلاعات سراسری و به اشتراک گذاری دانش. در این سیستم ها تغییرات محیط وابسته به ترکیب عمل تولید شده از همه عامل ها می...

15 صفحه اول

یادگیری تقویتی براساس معماری عملگر- نقاد در سیستم های چند عامله برای کنترل ترافیک

در نیمه دوم قرن گذشته اغلب جوامع شاهد شروع پدیده ای بنام ترافیک شهری در خود بوده اند که علت رخداد چنین پدیده ای عبور تعداد زیادی خودرو در زمان یکسان از یک زیر ساخت حمل و نقلی یکسان می باشد. پدیده ترافیک شهری دارای پیامدهای اقتصادی و محیط زیستی کاملاً شناخته شده ای از جمله آلودگی هوا، کاهش در سرعت، افزایش زمان سفر، افزایش مصرف سوخت و حتی افزایش تصادفات می باشد. یکی از راه های اقتصادی برای مدیریت ...

full text

حل برخط معادله ی همیلتون-ژاکوبی-بلمن برای سیستم های غیرخطی با دینامیک داخلی نامعلوم با استفاده از شبکه ی عصبی

در این مقاله روشی برای حل برخط معادله ی همیلتون-ژاکوبی-بلمن به منظور طراحی کنترلر بهینه برای سیستم های غیرخطی زمان پیوسته ارائه شده است. دیدگاه اساسی در این روش استفاده از تجربیات برای تقویت کنترلر می باشد، که با عنوان یادگیری تقویتی معروف است. ابتدا بر اساس ساختار عملگر- ارزیاب و به صورت برخط با استفاده از دو شبکه ی عصبی مجزا، معادله ی همیلتون-ژاکوبی-بلمن به صورت تقریبی حل می شود. شبکه های عمل...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023